(Muita Estatística pra pouco tempo)
Programa de Residência Multiprofissional em Vigilância em Saúde (PRMVS)
2024-11-26
Quantas pessoas são necessárias em um grupo para que a probabilidade de pelo menos duas delas compartilharem o mesmo aniversário seja maior que 50%?
Mas!
Compreender probabilidades reduz erros ao tomar decisões informadas.
Uma função \(\mathcal{P}\), definida na \(\sigma\) \(\mathcal{A}\) de subconjuntos de \(\Omega\),e com valores entre [0,1], édis uma probabilidade se sasisfaz os axiomas de komolgorov:
P(\(\omega\)) = 1;
Para todo subconjunto de A \(\in \mathcal{A} \ge\);
Mara toda sequência de eventos disjuntos \(A_1, A_2, A_3, ... \in \mathcal{A}\) temos que:
\[ P(\bigcup_{i=1}^\infty A_i = \sum_{i=1}^\infty P(A_i) \] - A trinca (\(\Omega\), \(\mathcal{A}\), \(\mathcal{P}\)) é chamada de espaço de probabilidade.
A probabilidade de um evento ( A ) é definida como a frequência com que esse evento ocorre em relação ao total de possibilidades. Ela é sempre um valor entre 0 e 1, onde:
\[ P(A) = \frac{\text{número de vezes que } A \text{ ocorre}}{\text{número total de casos possíveis}} \]
Por exemplo:
Probabilidade de 0,1 de uma pessoa ser O-negativo.
Se eu observar 10, espero encontrar uma pessoa O-negativo
Isso não significa que eu vou encontrar uma pessoa O-negativo, mas a medida que eu observar mais pessoas, a probabilidade encontrarei cerca de 10% de pessoas O-negativo.
Não sabemos quais serão essas pessoas, mas temos a estimativa para o grupo.
Modela eventos contínuos que tendem a se concentrar simetricamente ao redor de uma média (sino).
Exemplo: Altura, peso …
Modela eventos discretos com duas possíveis respostas (sucesso ou fracasso).
Exemplo: Lançamento de uma moeda (cara ou coroa).
Amostragem Aleatória Simples: Todos os indivíduos têm a mesma chance de serem selecionados.
Amostragem Estratificada: Divide a população em grupos homogêneos e seleciona aleatoriamente indivíduos de cada grupo.
Amostragem por Conglomerados (Cluster): Divide a população em grupos não homogêneos e seleciona aleatoriamente alguns grupos.
Inferência Estatística
Extrair conclusões sobre uma população a partir de uma amostra.
Distribuição Amostral da média: Distribuição das médias das amostras retiradas de uma população.
Erro Padrão: Mede a variabilidade da média das amostras.
Se sei a distribuição, consigo criar um intervalo de confiança.
Teorema do Limite Central: A distribuição amostral da média se aproxima de uma distribuição normal à medida que o tamanho da amostra aumenta.
Um censo no DF nos anos 90:
O nível de colesterol médio 190 mg/dL.
Ou seja \(C_{DF} \sim N(\mu_{0} = 190, \sigma^2_{0} = 30)\)
Motivação
Desconfiamos que esse nível de colesterol aumentou.
\(\bar{x}\) = 220 mg/dL, e a variância não mudou.
Expressa a incerteza em uma estimativa. Exemplo: “Estamos 95% confiantes de que a média populacional está entre os limites do intervalo.”
Se repetirmos o experimento infinitas vezes e calcularmos um IC para cada amostra, 95% desses intervalos incluirão a verdadeira média populacional (\(\mu\)) Ou seja:
Interpretação
[1] 214.2177 225.9774
Hipótese Nula (\(H_0\)): É a hipótese inicial, frequentemente assumindo que não há efeito ou diferença significativa.
Hipótese Alternativa (\(H_1\) ou \(H_a\)): É a hipótese que se quer testar, indicando a presença de um efeito ou diferença significativa.
\(H_0: \mu_{1} = \mu_{0} = 190\)
\(H_1: \mu_{1} > \mu_{0} = 190\)
Temos que estabelecer um critério.
O quanto estamos dispostos a “errar”?
Nível de significância \(\alpha\)
\(\alpha=0.05\) é um dos mais comuns.
| Rejeita H0 | Não-rejeita H0 | |
|---|---|---|
| H0 verd. | Erro tipo I | Correto! |
| H0 falsa | Correto! | Erro tipo II |
O que já sabemos?
\[Z = \frac{(\bar{x} - \mu_{nula})}{\frac{\sigma}{\sqrt{n}}} \sim N(0,1)\]
Para tirar a conclusão
R, STATA, SPSS, Excel , Python…
Interprete o resultado
Two-sample z-Test
data: x and y
z = 7.5568, p-value = 4.13e-14
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
1.300323 2.211040
sample estimates:
mean of x mean of y
7.018182 5.262500
Comparação de médias entre dois grupos
Welch Two Sample t-test
data: Idade by sex
t = -3.366, df = 555.9, p-value = 0.0008155
alternative hypothesis: true difference in means between group f and group m is not equal to 0
95 percent confidence interval:
-5.146353 -1.353368
sample estimates:
mean in group f mean in group m
16.19699 19.44685
| Características | f, N = 3361 | m, N = 3231 | Valor p2 |
|---|---|---|---|
| Idade | 16 (10) | 19 (15) | <0.001 |
| 1 Média (Desvio Padrão) | |||
| 2 Teste t com correção de Welch | |||
Wilcoxon rank sum test with continuity correction
data: Idade by sex
W = 49677, p-value = 0.06047
alternative hypothesis: true location shift is not equal to 0
Bootsatrap
Outra possibilidade de teste não paramétrico é bootstrap
Kruskal-Wallis
Não paramétrico, se não atender os pressupostos do ANOVA
Df Sum Sq Mean Sq F value Pr(>F)
hospital 2 16958 8479 51.68 <2e-16 ***
Residuals 672 110263 164
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
10 observations deleted due to missingness
Paramétrico
Não - Paramétrico
| Características | yes, N = 3331 | no, N = 3261 |
|---|---|---|
| sex | ||
| f | 185 (56%) | 151 (46%) |
| m | 148 (44%) | 175 (54%) |
| 1 n (%) | ||
Pearson's Chi-squared test with Yates' continuity correction
data: table(dado$sex, dado$fever)
X-squared = 5.2602, df = 1, p-value = 0.02182
| Características | yes, N = 3331 | no, N = 3261 | Valor p2 |
|---|---|---|---|
| sex | 0.018 | ||
| f | 185 (56%) | 151 (46%) | |
| m | 148 (44%) | 175 (54%) | |
| 1 n (%) | |||
| 2 Teste qui-quadrado de independência | |||
Kendall's rank correlation tau
data: dado_raw$age and dado_raw$`wt (kg)`
z = 27.565, p-value < 2.2e-16
alternative hypothesis: true tau is not equal to 0
sample estimates:
tau
0.724547
“p-hacking”
Bibliografia básica: